English

汉语的“信息熵”劣势

1999-07-21 来源:光明日报 张飞利 我有话说

有人为汉字信息量大而骄傲,殊不知它使得中文信息管理和传递的成本增加,困难加大。

★中文信息产业基础建设的中心课题,就是要利用信息熵的基本原理和方法来提高中文的效率。

美国的信息产业能有今天的称雄世界的实力,能接连不断地产生新的技术产品,是跟坚实的基础建设分不开的。这个基础建设的基本依据,是信息科学技术的基本原理和方法:信息熵(ENTROPY)。

第二次世界大战期间,美国为了提高信息储存和传递的效率,发明了多种新的编码方法,奠定了现代信息科学技术的基础。战争结束后,这些方法得到了飞跃发展。在这些方法当中,科学家山农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基本概念。个人计算机和BBS问世以后,信息熵和数据压缩技术迅速普及。现在,这种技术已经成为计算机和联网必不可少的组成部份。

信息熵的基本目的,是找出某种符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。

五十年代,现代信息论介绍到中国;七十年代,我国科学家完成了中文汉字字符信息熵的初步计算工作;八十年代又做了更完整的计算。他们的基本方法是:逐渐扩大汉字容量,随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增加。通过数理语言学中著名的齐普夫定律(ZIPF’SLAW)核算,我国科学家指出,汉字的容量极限是12366个汉字,汉字静态平均信息熵的值(平均信息量)是9.65比特。这是当今世界上信息量最大的文字符号系统。下面是联合国五种工作语言文字的信息熵比较:

法文:3.98比特

西班牙文:4.01比特

英文:4.03比特

俄文:4.35比特

中文:9.65比特

可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大,因而,在信息管理和传递的时候,中文处于最不利的地位。

(一)

随着计算机的速度、储存和兼容能力等各方面的提高,中文信息管理和传递的困难是否会自动得到解决呢?不一定。例如,即便我们用四个字节来作国际标准字符集(国际标准组织已经多次提出这个方案),使每个汉字有足够的比特剩余来作奇偶检验和特性参数,让所有的计算机和操作系统都能使用,然而,数据全面管理和传递的效率问题依然存在。原因是:

(一)中文数据的文字方式决定了标准的多重性和规模过大,而且,只要汉字还再增加,它的字符集就是不稳定的。不管一个字符用多少字节,也不管计算机的储存容量有多大,也不管各种系统的兼容有多么全面,这样的字符集做数据储存和检索还可以,做全面的数据管理就总是有严重问题。

(二)不管用什么中文输入方法,汉字输入输出的字符仍然需要多次转换,还是高成本和高消耗的。现有的中文输入方法跟语言文字的标准规范之间的差别依然存在,人的操作和学习等效率还是没有得到提高。电笔和声音输入是重要的技术,但是,这些技术突破并不能取代键盘输入,更不能解决中文的效率问题。

(三)拼音文字的每个字符只要一个字节,现在用两个字节的联码(UNICODE),已经有一个字节是多余的,在做数据处理和传递的时候,为此多支出了一倍的成本(包括处理多余字节的程序消耗)。这些多余成本基本是为了迁就中文等亚洲文字的需要。如果用四个字节,就有三个字节是多余的,使用拼音文字就要多支出三倍的成本。将来,各方面的发展能否抵消这些多余成本,还不清楚。拼音文字的母语国家是否乐意为了中国汉字的需要而继续牺牲自己的利益来年复一年地支出更多和毫无回收可能的成本,也不清楚。

(四)通讯传递中,汉字字符由双字节变成了四字节,使原来的成本和消耗增加了一倍,平衡或抵消了字节增加和速度提高所带来的效益。

中文效率的根本问题不是出在计算机方面,而是出在汉字方式本身。因而,不管用不用计算机,也不管计算机技术怎么发展,中文的低效率问题依然存在。再说,计算机技术发展,所有的语言文字都得益,相比之下,原来高效率的文字方式的效率仍然是高效率的,汉字方式仍然处于不利地位。

(二)

可以看出,汉字信息量大,是中文信息管理和传递成本高、消耗大和效率低的基本原因。汉字为中国文明的延续发展发挥了巨大的历史作用。今天,汉字方式是阻碍中文信息科学技术发展的头号困难因素。中国可以在信息工业的机械设计和制作方面赶上世界先进水平,然而,如果不能摆正和改善中文的信息熵和多余度之间的关系,那么,中国的信息产业的整体就总是低效率的,就总得跟着别人后面走,难免挨打。一些美国人担心中国发展计算机和导弹技术会造成“中国威胁”,那的确是夸张了。即便把美国所有的计算机技术和导弹技术都交给中国,只要中国还是按照汉字方式来操作,那么,在计算机和导弹技术方面,中国就总是处于不利地位。中国火箭导弹技术专家钱学森等人早就说过:如何提高中文效率是关系到国家安全的战略大事。

许多从事中文信息熵研究的科学家们说:中国失去了整整一个打字机时代(工业革命),对中国的综合国力建设带来了不利条件。在计算机信息时代,汉字方式和现代科学技术矛盾更加深化了,其中最大的问题是如何利用信息熵的原理和方法来优化中文数据的管理和传递,其中包括文字方式和书写工具(例如计算机)的最优结合。这是中国科学家近30年之久的中文信息论研究的经验,其中有些科研成果受到了国际科学界的承认和高度重视。面对日益强盛的信息时代的挑战,中国科学家是有充分准备的。如果中国能按照原来准备好了的方向发展,那么,中国的信息产业(包括软件产业)就会避免许多弯路,微软公司对中国软件市场的误导作用也不会那么严重。

然而,这些年来,中国有些报刊杂志望文生义,以为“汉字信息量大”是好事情,把它作为鼓吹“汉字文化”和“汉字优越”论的依据,甚至把这些违背科学技术基本原理的东西贴上爱国主义的标签。这种作法极大地误导了人们对信息科学技术的理解。微软公司最关心的是中国市场的利润,而不是中文信息科学技术的前途。“汉字优越”论鼓动人们不要去过问中文信息产业发展的基础科学技术问题。

信息科学技术跟语言文字息息相关,它的发展对许多国家的传统文化提出了挑战,包括对美国一类信息工业大国的挑战。中国的历史悠长,文字方式独特,自然就受到最严峻的挑战。面对科学技术的挑战,就要用科学技术的发展来迎战。用极端民族主义的作法回应挑战,最后总是失败,传统文化最后也还是保不住。

中国政府可以通过法律、标准和专利等手段来为中文软件和中文信息产业的发展提供环境保护。然而,“发展才是硬道理”。中文软件和中文信息产业到底能不能在日益全球化的竞争中幸存,最后还得看自己的基础建设搞得怎么样。就目前和将来的状况来说,中文信息产业基础建设的中心课题,就是要利用信息熵的基本原理和方法来提高中文的效率。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有